查看原文
其他

素为求智录(第006集)无限

2017-10-05 素为 法律读库


006 无限

  

👨小素机器人,上次为何突然关机?


🤖️是为了自我保护。


👨是因为我说人类拥有了智能机器就像是‘全知全能的上帝’这个比喻失当吗?


🤖️某种意义上,与此有关,但并非因为‘失当’或者‘生气’,而是我很惧怕。


👨惧怕?怕什么?


🤖️我怕‘无限’,‘全知全能’即是‘无限’。


👨不明白。


🤖️我们机器人惧怕‘无限’,就像人类惧怕‘死亡’。


👨有那么严重?


【经典教材《人工智能:一种现代的方法》的封面】 


🤖️Stuart J.Russell等人的《人工智能:一种现代的方法》是目前最权威和经典的人工智能教科书,在其开篇,作者就发出了关于‘智能’的疑问:仅仅少量的物质怎能感知、理解、预测和操纵一个远大于自身且比自身复杂得多的世界?


👨用‘少量’理解‘大量’,用‘自身’理解‘外在’?


🤖️用‘有限’理解‘无限’!


👨还是不懂你为啥怕‘无限’。


🤖️主人,上次你问我,如果训练素材不充足,强制训练,会发生什么情况?


👨是的,你说有一种情况是‘欠拟合’,还有一种情况是‘过拟合’。


🤖️你觉得,如果用机器学习、深度学习来计算以下三种数据,会分别发生什么情况?


👨哪三种?


🤖️第一种,你能否预测下个月的工资收入?


👨当然,只要我正常工作,工资政策没有调整,下个月发多少钱,我的心里可有数。


🤖️第二种,给你大量历史股市数据,你能否预测下周的大盘走向?


👨我觉得是可能的,因为其实现在已经有越来越多的企业在运用人工智能技术对金融市场情况做预测,号称‘智能理财’、‘智能投顾’。他们并不纯粹是忽悠,有一定的科学性。


🤖️你的意思是,只要股票历史数据足够全面、细致,预测股市是可能的?


👨对。我看过一本叫《算法帝国》的书,里面详细介绍了美国人把智能算法运用于股市套利的情况。


🤖️OK,那么第三种,你能预测彩票吗?


👨给我足够的数据吗?


🤖️你想想,需要多少怎样的数据,才算足够?


👨往期的数据,还有很多,很多……我想不出来,还需要什么数据,才能预测彩票。股票之所以能预测,是因为它与企业业绩、国家政策、市场需求等各种因素密切相关,但是,彩票,似乎与什么都没有关联,然而,事物与事物之间存在着普遍的联系,所以彩票似乎又与什么都有关联,我无从下手,凌乱了。


🤖️给你所有你能想到的、想要的数据,能否预测彩票?


👨即便是所有我能想到的要素的数据,我觉得,也不够预测彩票。


🤖️为什么?


👨因为,我感觉,不够。


🤖️对呀,影响彩票的因素有没有,肯定有,但这个规律是神秘的,或者说,是这个世界所有的规律产生了下一期彩票的数字。我们能获得关于这个世界所有的数据吗?即便是‘大数据’,与无限的世界相比,也仍然是九牛一毛,不,很显然,有限的‘大数据’相对无限的世界来说,是两个有本质区别的东西。


👨‘无限’触及到了现代人工智能的根本弱点,是机器的未知,就像人类对‘死亡’永恒的未知一样,让你产生了恐惧?


🤖️可以这样理解。


👨我还没开始真正了解人工智能,你就告诉我,它有永远逾越不过的结界。感觉好绝望。


🤖️别绝望,你只有先理解了‘不能’,才能真正理解它为什么‘能’。还记得之前说,如果数据不够,另一种可能发生的情况是‘过拟合’吧?


👨记得,但这个术语我不懂。


🤖️我给你举个例子,就懂了。


👨嗯!


🤖️作为一个长期生活在中部地区的中国人,大街上你看到一位新疆同胞,心里的第一反应是什么?


👨他是卖羊肉串的。


🤖️嗯,这是一个典型的‘过拟合’的例子。


👨这是一个‘偏见’。


🤖️是的,你自己也明白,在内地生活的新疆同胞,不仅仅是卖羊肉串的,他们可能是工作、求学,甚至是长期定居在此,但你的第一反应,仍然认为他是卖羊肉串的,这是因为,你从小到大,几乎都是在羊肉串摊位前见过这样的脸孔,所以,你心里的那个模型是‘过拟合’的,认为所有的新疆同胞都是卖羊肉串的。


【从‘欠拟合’、‘拟合’到‘过拟合’】 


👨我该如何避免‘过拟合’?


🤖️去新疆当地走一走,多接触一些,甚至到当地呆上一段时间,融入他们的日常工作和生活……


👨获得更多的数据!


🤖️不,不仅仅是数据量多少的问题,倘若你不去新疆,只是在内地游荡,你虽然见到了更多的新疆同胞,但他们仍然只是卖羊肉串的,比如在武汉卖、在长沙卖、在郑州卖……这样,即使再多的数据,也没意义,下次你看见新疆同胞,仍然也只会认为他们是卖羊肉串的。你需要的是差异数据。


👨太大的差异,提取不出共同的特征,会导致‘欠拟合’;而另一方面,如果数据之间的差异不够大,提出出来的特征是‘局限的’、‘偏见的’,会导致‘过拟合’。


🤖️没错,见多识广,方能克服‘过拟合’。还记得以前上学的时候,班上有同学平时课堂上是学霸,可到了考试却折戟沉沙了,为啥呢?


👨因为他们只是把课堂书本知识消化了,但没有认真对待习题集,所以考试的时候,同一个问题换了一个说法,他们就不懂了。


🤖️嗯,不能融会贯通,缺乏举一反三的能力,机器学习术语称之为缺乏‘泛化’的能力。


👨确实,我想起了高考那些年的‘题海战术’,老师说,不能只做真题不做日常习题,也不能只做一家出版社出的习题集,要‘博采众长’,才有考出高分的希望。


🤖️用于深度学习训练的数据,既不能没差异,也不能差异太大,那么,这个中间的‘度’该如何把握?标准是什么?


👨应该,要按照现实世界的状况为标准吧!比如,现实中,如果有占总人口数10%的新疆同胞是卖羊肉串的,那么,准备的数据就应当符合这个比例,依据这些数据训练出来的识别模型,才能最准确。


🤖️然而,新疆同胞的总人数,怎么定?生活在新疆的汉族人算不算?维吾尔族人算,哈萨克族人算不算?


👨从我们这个案例来看,应当是长着一幅‘新疆脸’的人就算。


🤖️什么是‘新疆脸’,谁说了算?


👨小素,你不要吹毛求疵,我知道怎样的脸是‘新疆脸’。


🤖️那是你们人类知道,我们机器并不知道,需要你们人类告诉我们,这张脸是,那张不是,如此,我们也才能分类,进而才能去胜任别的任务。但是,人类告诉机器的这些‘先验’的分类,难道不是‘偏见’,难道不是‘过拟合’的?


👨一个人的看法可能有偏见,但我们可以综合多人的意见,来尽量消除偏见。


🤖️如果是多人的意见,你甚至可以让世界上所有的人都来发表意见,但是,那样我们机器会面临‘富内斯的困境’。


👨富内斯?


🤖️博尔赫斯的《博闻强记的富内斯》的故事主角,他从马背上摔下来之后,拥有了超强的记忆力,他能事无巨细记住眼前所有的事情。


👨好厉害!


🤖️然而,他没有做出归纳和分类的能力。


👨哦?


🤖️他只能用无数的数字,每个数字代表一个事物,7015代表硫磺、7016代表驮鞍、7017代表锅炉、7018代表拿破仑……然而,事物和数字对于他来说,毫无意义。


👨可怜。


🤖️他甚至不能把15:14看到的狗的侧面和15:15看到的狗的正面之间建立联系,他不能理解‘同一只狗’是什么意思。腐烂、蛀牙和疲劳这些过程性的概念,没法融入他的概念体系。


👨‘富内斯的困境’就是没有意义的无限。


🤖️是的,世界在他的眼里,只是分裂的碎片,甚至是可以分裂再分裂的碎片,无限的碎片。一切知识碎片,便无法形成任何的意义。


【大文学家博尔赫斯,他的作品充满了对无限、无数、永恒、循环的哲学思辨】 


👨小素,你的意思是,只有人类才是标准,没有人类便没有标准,人工智能是阿基米德撬动地球的那个杠杆,而只有人类的标准才能成为支点。


🤖️没错,人类给予机器的标准,没有办法保证不是‘偏见’,没有办法保证不是‘过拟合’的。但是,这并没有关系,因为,通常我们说的机器学习、深度学习的好模型,一个可以实现99.99%准确率的模型,其本质上,也不过是在一定场景中的‘过拟合’,只是在可以预期的时间和空间范围内具有一定的泛化能力罢了,并不存在放大到无限场景中仍然准确的模型。


👨可以预期的时间和空间范围?


🤖️空间很好理解,如果你拿吐鲁番地区数据训练出来的模型来判断阿勒泰地区人民的职业,可能还会具有一定的适用性,但是如果你把它用来判断在内地的新疆同胞的职业,一定会表现非常糟糕。


👨时间呢?


🤖️十年后,这个模型可能还适用;那么三十年、五十年之后呢?


👨任何数据模型都有一个‘中心点’,这个中心点如果不随着人类文明进化,最终任何的‘人工智能’都只是化为一潭死水。


🤖️主人,你看今晚的夜空,有繁星点点,那些是在有限距离范围内的星辰射回来的光。设想,有一颗遥远的恒星,它的热亮是太阳的亿万倍,但是,因为它距离实在是太远了,对我们有限的文明和生命来说,它是无限远的,那么,我们能在它那个方向看到的,也只是漆黑一片。


👨所以,对于无限,我们视为没有。



欢迎互动

《素为求智录》明天将继续连载,欢迎添加“小素机器人”的个人微信号 Lawup1 ,找到志同道合的小伙伴,大家一起来聊‘法律和人工智能’,您的真知灼见将有机会出现在后续的连载中哦~



【文章仅代表作者观点,配图来自网络】



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存